Razonamiento estable, respuestas inestables: clave contra el engaño en LLM
Descubre cómo la asimetría de estabilidad entre el razonamiento interno y las respuestas externas revela el engaño en LLMs, y cómo una nueva regularización lo mitiga sin perder capacidad.